#anclaje de preferencias

AAPA: Anclaje Adversarial de Preferencias para Modelos de Lenguaje

AAPA mejora el post-entrenamiento de LLMs con anclaje adversarial. Sin inferencia online, logra hasta 5.77% de mejora en Qwen3-0.6B. ¡Prueba este método!

2026-06-19 · 2 min